Model Selection

End-to-end audio processing

# End-to-end audio processing

Voila Autonomous Preview

Voila is a large family of speech-language foundation models designed to enhance human-computer interaction, supporting real-time, low-latency voice interaction and multilingual processing.

Transformers Supports Multiple Languages

Voila Tokenizer

Voila is a large-scale voice-language foundation model series designed to enhance human-computer interaction, supporting multiple audio tasks and languages.

Transformers Supports Multiple Languages

Ast Finetuned Speech Commands V2

An audio spectrogram transformer model fine-tuned on the Speech Commands v2 dataset for audio classification tasks, achieving 98.12% accuracy.

Audio Classification

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase